1. Постановка задачи

Выгружаем данные, очищаем их от пропущенных значений и предварительно просматриваем их:

## 'data.frame':    252 obs. of  15 variables:
##  $ BodyFat: num  12.3 6.1 25.3 10.4 28.7 20.9 19.2 12.4 4.1 11.7 ...
##  $ Density: num  1.07 1.09 1.04 1.08 1.03 ...
##  $ Age    : num  23 22 22 26 24 24 26 25 25 23 ...
##  $ Weight : num  154 173 154 185 184 ...
##  $ Height : num  67.8 72.2 66.2 72.2 71.2 ...
##  $ Neck   : num  36.2 38.5 34 37.4 34.4 39 36.4 37.8 38.1 42.1 ...
##  $ Chest  : num  93.1 93.6 95.8 101.8 97.3 ...
##  $ Abdomen: num  85.2 83 87.9 86.4 100 94.4 90.7 88.5 82.5 88.6 ...
##  $ Hip    : num  94.5 98.7 99.2 101.2 101.9 ...
##  $ Thigh  : num  59 58.7 59.6 60.1 63.2 66 58.4 60 62.9 63.1 ...
##  $ Knee   : num  37.3 37.3 38.9 37.3 42.2 42 38.3 39.4 38.3 41.7 ...
##  $ Ankle  : num  21.9 23.4 24 22.8 24 25.6 22.9 23.2 23.8 25 ...
##  $ Biceps : num  32 30.5 28.8 32.4 32.2 35.7 31.9 30.5 35.9 35.6 ...
##  $ Forearm: num  27.4 28.9 25.2 29.4 27.7 30.6 27.8 29 31.1 30 ...
##  $ Wrist  : num  17.1 18.2 16.6 18.2 17.7 18.8 17.7 18.8 18.2 19.2 ...
Таблица 1. Описание данных
Переменная Описание переменной, англ Описание переменной, рус
Зависимая переменная
BodyFat Percent body fat from Siri’s (1956) equation Процент жира в организме по уравнению Сири (1956)
Объясняющие переменные
Density Density determined from underwater weighing Плотность определяется путем взвешивания под водой
Age Age (years) Возраст (годы)
Weight Weight (lbs) Вес (фунты)
Height Height (inches) Рост (дюймы)
Neck Neck circumference (cm) Окружность шеи (см)
Chest Chest circumference (cm) Окружность грудной клетки (см)
Abdomen Abdomen 2 circumference (cm) Окружность живота 2 (см)
Hip Hip circumference (cm) Окружность бедер (см)
Thigh Thigh circumference (cm) Окружность бедра (см)
Knee Knee circumference (cm) Окружность колена (см)
Ankle Ankle circumference (cm) Окружность лодыжки (см)
Biceps Biceps (extended) circumference (cm) Окружность бицепса (вытянутого) (см)
Forearm Forearm circumference (cm) Окружность предплечья (см)
Wrist Wrist circumference (cm) Окружность запястья (см)

Обоснование репрезентативности выборки:

- 252 различных измерений окружности тела мужчин;

- 15 непрерывных объясняющих переменных.

Гипотезы исследования:

  1. гипотеза о зависимости уровня жира в организме от различных физических показателей тела;

  2. гипотеза о наличии аномальных наблюдений в выборке;

  3. гипотеза о нормальном распределении совокупности.

  1. Основные характеристики СВ

Характеристики центра:

## [1] "Среднее:  19.1507936507937"
## [1] "Медиана: Me =  19.2"
## [1] "Мода: Mo =  20.4"

Видим, что среднее, медиана и мода примерно равны, следовательно, предполагаем наличие нормального распределения исследуемой переменной BodyFat.

Характеристики разброса:

## [1] "min =  0"
## [1] "max =  47.5"
## [1] "Размах: R = max - min =  47.5"
## [1] "Дисперсия: Var(HI) =  70.036"
## [1] "Стандартное отклонение: sd(HI) =  8.369"
## [1] "Коэффициент вариации: CV =  43.699 %"

Коэффициент вариации выше \(33\)% означает, что переменная BodyFat неоднородна.

Ранговые характеристики:

0% 25% 50% 75% 100%
0 12.47 19.2 25.3 47.5
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0 8.32 11.42 14.03 16.94 19.2 21.36 24.02 26.6 29.99 47.5

По данным о квартилях, мы знаем, что что 25% наблюдений имеют значение, меньшее или равное 12,47, 50% наблюдений имеют значение, меньшее или равное 19,2, 75% значений не превышают 25,3.

  1. Диагностика выбросов

Ищем интерквартильный размах:

## [1] "Интерквартильный размах: 12.825"

Правило 1,5IQR:

## [1] 47.5

Обнаружен один выброс - 47,5.

Правило 3IQR:

## numeric(0)

Выбросы не обнаружены.

Правило 3 сигм:

## [1] 47.5

Обнаружен один выброс - 47,5.

Тест Граббса:

## 
##  Grubbs test for one outlier
## 
## data:  df$BodyFat
## G = 3.3875, U = 0.9541, p-value = 0.07777
## alternative hypothesis: highest value 47.5 is an outlier
## 
##  Grubbs test for one outlier
## 
## data:  df$BodyFat
## G = 2.28837, U = 0.97905, p-value = 1
## alternative hypothesis: lowest value 0 is an outlier

Тест Граббса для максимального значения: ‘p-value’ > 0,05, гипотеза не отвергается, следовательно, значение 47.5 не является выбросом согласно тесту Граббса; Тест Граббса для минимального значения: ‘p-value’ > 0,05, гипотеза не отвергается, следовательно, значение 0 не является выбросом согласно тесту Граббса.

Тест Рознера:

i Mean.i SD.i Value Obs.Num R.i+1 lambda.i+1 Outlier
0 19.15 8.369 47.5 216 3.388 3.674 FALSE

На тесте Рознера проверили значение, являющееся выбросом по правилу 1,5IQR. Выявили, что оно не является выбросом согласно результату тесту Рознера.

  1. Проверка соответствия эмпирического распределения нормальному закону

Характеристики формы:

## [1] "Коэффициент асимметрии: As =  0.145"
## [1] "Коэффициент эксцесса: Ek =  -0.372"

Коэффициент асимметрии больше 0 и меньше 0.5 по модулю, следовательно, распределение исследуемой переменной имеет слабую правостороннюю асимметрию. Коэффициент эксцесса меньше 0 и по модулю меньше 0.5, значит, распределение переменной BodyFat имеет незначительное плосковершинное распределение.

Гистограмма распределения переменной BodyFat:

По графикам наблюдаем, что крайнее значение с правой стороны далеко отданных, поэтому предлагаем посмотреть на графики без данного выброса.

Графики после удаления выбросов:

Видим, что распределение исследуемой переменной близко к форме колокола Гаусса, значит, мы снова можем выдвинуть предположение о подчинении распределения переменной нормальному закону.

4.1. Проверка гипотезы о нормальном распределении совокупности с использованием статистического критерия

Критерий согласия Пирсона:

Pearson chi-square normality test: df$BodyFat
Test statistic P value
14.15 0.5875

Критерий Шапиро-Уилка:

Shapiro-Wilk normality test: df$BodyFat
Test statistic P value
0.9917 0.1649

Тест Колмогорова-Смирнова:

Asymptotic one-sample Kolmogorov-Smirnov test: df$BodyFat
Test statistic P value Alternative hypothesis
0.04455 0.6993 two-sided

P-value больше уровня значимости 5%, значит, гипотеза о нормальном распределении исследуемой переменной не отвергается. Мы подтвердили гипотезу о том, что переменная BodyFat подвергается нормальному распределению.

  1. Корреляционный анализ

5.1. Построение облака (поля) корреляции

Рассмотрим частичные корреляционные матрицы в удобном виде, где на верхней панели отображается парная корреляция между двумя показателями, на нижней - точечные графики составленные по выборке, а по диагонали - полученные графики плотности.

Общий вид:

Заметим, что переменная BodyFat имеет сильную прямую связь с переменной Abdomen, сильную обратную связь (близкую к 1) с переменной Density, а также практически не имеет связи (имеет очень слабую связь близкую к 0) с переменной Height.

Далее подробно рассмотрим эти три вида связи.

1.1. Рассмотрим обратную зависимость переменных Densityи BodyFat до и после удаления выбросов:

До удаления выбросов:

Определим выбросы:

## [1] 47.5
## [1] 0.995
## [1] 47.5

Имеется один выброс - это максимальное значение BodyFat в выборке. Поэтому сортируем массив данных и удаляем выброс.

После удаления выбросов:

Заметим, что удаление выброса не сильно повлияло на облако корреляции, немного изменился вид графика лишь из-за незначительного изменения масштаба рисунка.

1.2. Рассмотрим положительную зависимость переменных Abdomenи BodyFatдо и после удаления выбросов:

До удаления выбросов:

Определим выбросы:

## [1] 47.5
## [1] 148.1 126.2 122.1

Имеется три выброса, поэтому далее сортируем массив данных и удаляем выбросы.

После удаления выбросов:

Заметим, что удаление выбросов не сильно повлияло на облако корреляции, немного изменился вид графика лишь из-за незначительного изменения масштаба рисунка.

1.3. Рассмотрим отсутствие зависимости переменных Height и BodyFat до и после удаления выбросов:

До удаления выбросов:

Определим выбросы:

## [1] 47.5
## [1] 29.5

Определим номера строк для выбросных значений:

## [1] 216
## [1] 42

Удалим выбросы и построим новое облако корреляции двух переменных БЕЗ выбросов:

Заметим, что вид графика изменился лишь из-за изменения масштаба рисунка. Само удаление выбросов не сильно повлияло на облако корреляции.

5.2. Построение и интерпретация матрицы парных коэффициентов корреляции ДО и ПОСЛЕ удаления аномальных наблюдений

Матрица парных коэффициентов корреляции до удаления выбросов:

##             BodyFat     Density         Age      Weight      Height       Neck
## BodyFat  1.00000000 -0.98778240  0.29145844  0.61241400 -0.08949538  0.4905919
## Density -0.98778240  1.00000000 -0.27763721 -0.59406188  0.09788114 -0.4729664
## Age      0.29145844 -0.27763721  1.00000000 -0.01274609 -0.17164514  0.1135052
## Weight   0.61241400 -0.59406188 -0.01274609  1.00000000  0.30827854  0.8307162
## Height  -0.08949538  0.09788114 -0.17164514  0.30827854  1.00000000  0.2537099
## Neck     0.49059185 -0.47296636  0.11350519  0.83071622  0.25370988  1.0000000
## Chest    0.70262034 -0.68259865  0.17644968  0.89419052  0.13489181  0.7848350
## Abdomen  0.81343228 -0.79895463  0.23040942  0.88799494  0.08781291  0.7540774
## Hip      0.62520092 -0.60933143 -0.05033212  0.94088412  0.17039426  0.7349579
## Thigh    0.55960753 -0.55309098 -0.20009576  0.86869354  0.14843561  0.6956973
## Knee     0.50866524 -0.49504035  0.01751569  0.85316739  0.28605321  0.6724050
## Ankle    0.26596977 -0.26489003 -0.10505810  0.61368542  0.26474369  0.4778924
## Biceps   0.49327113 -0.48710872 -0.04116212  0.80041593  0.20781557  0.7311459
## Forearm  0.36138690 -0.35164842 -0.08505555  0.63030143  0.22864922  0.6236603
## Wrist    0.34657486 -0.32571598  0.21353062  0.72977489  0.32206533  0.7448264
##              Chest     Abdomen         Hip      Thigh        Knee      Ankle
## BodyFat  0.7026203  0.81343228  0.62520092  0.5596075  0.50866524  0.2659698
## Density -0.6825987 -0.79895463 -0.60933143 -0.5530910 -0.49504035 -0.2648900
## Age      0.1764497  0.23040942 -0.05033212 -0.2000958  0.01751569 -0.1050581
## Weight   0.8941905  0.88799494  0.94088412  0.8686935  0.85316739  0.6136854
## Height   0.1348918  0.08781291  0.17039426  0.1484356  0.28605321  0.2647437
## Neck     0.7848350  0.75407737  0.73495788  0.6956973  0.67240498  0.4778924
## Chest    1.0000000  0.91582767  0.82941992  0.7298586  0.71949640  0.4829879
## Abdomen  0.9158277  1.00000000  0.87406618  0.7666239  0.73717888  0.4532227
## Hip      0.8294199  0.87406618  1.00000000  0.8964098  0.82347262  0.5583868
## Thigh    0.7298586  0.76662393  0.89640979  1.0000000  0.79917030  0.5397971
## Knee     0.7194964  0.73717888  0.82347262  0.7991703  1.00000000  0.6116082
## Ankle    0.4829879  0.45322269  0.55838682  0.5397971  0.61160820  1.0000000
## Biceps   0.7279075  0.68498272  0.73927252  0.7614774  0.67870883  0.4848545
## Forearm  0.5801727  0.50331609  0.54501412  0.5668422  0.55589819  0.4190500
## Wrist    0.6601623  0.61983243  0.63008954  0.5586848  0.66450729  0.5661946
##              Biceps     Forearm      Wrist
## BodyFat  0.49327113  0.36138690  0.3465749
## Density -0.48710872 -0.35164842 -0.3257160
## Age     -0.04116212 -0.08505555  0.2135306
## Weight   0.80041593  0.63030143  0.7297749
## Height   0.20781557  0.22864922  0.3220653
## Neck     0.73114592  0.62366027  0.7448264
## Chest    0.72790748  0.58017273  0.6601623
## Abdomen  0.68498272  0.50331609  0.6198324
## Hip      0.73927252  0.54501412  0.6300895
## Thigh    0.76147745  0.56684218  0.5586848
## Knee     0.67870883  0.55589819  0.6645073
## Ankle    0.48485454  0.41904999  0.5661946
## Biceps   1.00000000  0.67825513  0.6321264
## Forearm  0.67825513  1.00000000  0.5855883
## Wrist    0.63212642  0.58558825  1.0000000
Таблица 2. Корреляционная матрица, метод Пирсона
BodyFat Density Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle Biceps Forearm Wrist
BodyFat 1.0000000 -0.9877824 0.2914584 0.6124140 -0.0894954 0.4905919 0.7026203 0.8134323 0.6252009 0.5596075 0.5086652 0.2659698 0.4932711 0.3613869 0.3465749
Density -0.9877824 1.0000000 -0.2776372 -0.5940619 0.0978811 -0.4729664 -0.6825987 -0.7989546 -0.6093314 -0.5530910 -0.4950404 -0.2648900 -0.4871087 -0.3516484 -0.3257160
Age 0.2914584 -0.2776372 1.0000000 -0.0127461 -0.1716451 0.1135052 0.1764497 0.2304094 -0.0503321 -0.2000958 0.0175157 -0.1050581 -0.0411621 -0.0850556 0.2135306
Weight 0.6124140 -0.5940619 -0.0127461 1.0000000 0.3082785 0.8307162 0.8941905 0.8879949 0.9408841 0.8686935 0.8531674 0.6136854 0.8004159 0.6303014 0.7297749
Height -0.0894954 0.0978811 -0.1716451 0.3082785 1.0000000 0.2537099 0.1348918 0.0878129 0.1703943 0.1484356 0.2860532 0.2647437 0.2078156 0.2286492 0.3220653
Neck 0.4905919 -0.4729664 0.1135052 0.8307162 0.2537099 1.0000000 0.7848350 0.7540774 0.7349579 0.6956973 0.6724050 0.4778924 0.7311459 0.6236603 0.7448264
Chest 0.7026203 -0.6825987 0.1764497 0.8941905 0.1348918 0.7848350 1.0000000 0.9158277 0.8294199 0.7298586 0.7194964 0.4829879 0.7279075 0.5801727 0.6601623
Abdomen 0.8134323 -0.7989546 0.2304094 0.8879949 0.0878129 0.7540774 0.9158277 1.0000000 0.8740662 0.7666239 0.7371789 0.4532227 0.6849827 0.5033161 0.6198324
Hip 0.6252009 -0.6093314 -0.0503321 0.9408841 0.1703943 0.7349579 0.8294199 0.8740662 1.0000000 0.8964098 0.8234726 0.5583868 0.7392725 0.5450141 0.6300895
Thigh 0.5596075 -0.5530910 -0.2000958 0.8686935 0.1484356 0.6956973 0.7298586 0.7666239 0.8964098 1.0000000 0.7991703 0.5397971 0.7614774 0.5668422 0.5586848
Knee 0.5086652 -0.4950404 0.0175157 0.8531674 0.2860532 0.6724050 0.7194964 0.7371789 0.8234726 0.7991703 1.0000000 0.6116082 0.6787088 0.5558982 0.6645073
Ankle 0.2659698 -0.2648900 -0.1050581 0.6136854 0.2647437 0.4778924 0.4829879 0.4532227 0.5583868 0.5397971 0.6116082 1.0000000 0.4848545 0.4190500 0.5661946
Biceps 0.4932711 -0.4871087 -0.0411621 0.8004159 0.2078156 0.7311459 0.7279075 0.6849827 0.7392725 0.7614774 0.6787088 0.4848545 1.0000000 0.6782551 0.6321264
Forearm 0.3613869 -0.3516484 -0.0850556 0.6303014 0.2286492 0.6236603 0.5801727 0.5033161 0.5450141 0.5668422 0.5558982 0.4190500 0.6782551 1.0000000 0.5855883
Wrist 0.3465749 -0.3257160 0.2135306 0.7297749 0.3220653 0.7448264 0.6601623 0.6198324 0.6300895 0.5586848 0.6645073 0.5661946 0.6321264 0.5855883 1.0000000

Матрица парных коэффициентов корреляции после удаления выбросов:

Определим все выбросы по каждой переменной:

## [1] 47.5
## [1] 0.995
## numeric(0)
## [1] 363.15 262.75
## [1] 29.5
## [1] 51.2 31.5 31.1
## [1] 136.2 128.3
## [1] 148.1 126.2 122.1
## [1] 116.1 147.7 125.6
## [1] 87.3 72.5 72.9 74.4
## [1] 49.1 45.0 46.0
## [1] 33.9 29.6 33.7
## [1] 45
## [1] 23.1 34.9 21.0 23.1 22.0
## [1] 21.4 21.4 15.8 20.9

Определим номера строк для всех выбросных значений:

## [1] 216
## [1] 216
## [1] 39
## [1] 41
## integer(0)
## [1] 39
## [1] 45
## [1] 106
## [1] 39
## [1] 41
## [1] 39
## [1] 41
## [1] 216
## [1] 35
## [1] 39
## [1] 41
## [1] 39
## [1] 41
## [1] 152
## [1] 169
## [1] 39
## integer(0)
## integer(0)
## [1] 31
## [1] 39
## [1] 86
## [1] 39
## [1]  45 206
## [1] 159
## integer(0)
## [1]  45 206
## integer(0)
## [1] 39 41
## [1] 39 41
## [1] 226
## [1] 252

Удалим выбросы и построим новую матрицу парных коэффициентов корреляции БЕЗ выбросов:

##             BodyFat     Density          Age       Weight      Height
## BodyFat  1.00000000 -0.98607881  0.294101795  0.599461227  0.00181222
## Density -0.98607881  1.00000000 -0.279252222 -0.577340704  0.01568633
## Age      0.29410180 -0.27925222  1.000000000 -0.008269697 -0.23247950
## Weight   0.59946123 -0.57734070 -0.008269697  1.000000000  0.54549343
## Height   0.00181222  0.01568633 -0.232479498  0.545493428  1.00000000
## Neck     0.46904712 -0.44870449  0.137077860  0.797747237  0.32189040
## Chest    0.67681489 -0.65407010  0.192636971  0.880940690  0.24431420
## Abdomen  0.81205459 -0.79549673  0.263120680  0.862100498  0.21583018
## Hip      0.60999074 -0.59149961 -0.058274119  0.922690524  0.43395685
## Thigh    0.53862858 -0.52994482 -0.215971171  0.833670776  0.35185288
## Knee     0.50196363 -0.48499394  0.023741683  0.853963361  0.50143147
## Ankle    0.25665070 -0.25569969 -0.168422597  0.697373079  0.49509270
## Biceps   0.46496049 -0.45785035 -0.039342981  0.763816024  0.30536431
## Forearm  0.36038153 -0.34752707 -0.056749064  0.721322183  0.34945945
## Wrist    0.29511539 -0.27101662  0.228874974  0.695006584  0.41178665
##               Neck      Chest    Abdomen         Hip      Thigh        Knee
## BodyFat  0.4690471  0.6768149  0.8120546  0.60999074  0.5386286  0.50196363
## Density -0.4487045 -0.6540701 -0.7954967 -0.59149961 -0.5299448 -0.48499394
## Age      0.1370779  0.1926370  0.2631207 -0.05827412 -0.2159712  0.02374168
## Weight   0.7977472  0.8809407  0.8621005  0.92269052  0.8336708  0.85396336
## Height   0.3218904  0.2443142  0.2158302  0.43395685  0.3518529  0.50143147
## Neck     1.0000000  0.7510434  0.7145555  0.68097409  0.6383542  0.64632070
## Chest    0.7510434  1.0000000  0.8964279  0.79794389  0.6796831  0.70726541
## Abdomen  0.7145555  0.8964279  1.0000000  0.83966531  0.7139883  0.72832690
## Hip      0.6809741  0.7979439  0.8396653  1.00000000  0.8732763  0.83166313
## Thigh    0.6383542  0.6796831  0.7139883  0.87327628  1.0000000  0.78315105
## Knee     0.6463207  0.7072654  0.7283269  0.83166313  0.7831510  1.00000000
## Ankle    0.5253719  0.5201765  0.4768240  0.62278332  0.6423109  0.71688913
## Biceps   0.6856753  0.6889445  0.6352750  0.70146658  0.7211541  0.62851560
## Forearm  0.7124337  0.6307103  0.5470169  0.61533798  0.6269644  0.59904502
## Wrist    0.7267869  0.6087781  0.5632483  0.57658212  0.5030937  0.63483929
##              Ankle      Biceps     Forearm      Wrist
## BodyFat  0.2566507  0.46496049  0.36038153  0.2951154
## Density -0.2556997 -0.45785035 -0.34752707 -0.2710166
## Age     -0.1684226 -0.03934298 -0.05674906  0.2288750
## Weight   0.6973731  0.76381602  0.72132218  0.6950066
## Height   0.4950927  0.30536431  0.34945945  0.4117866
## Neck     0.5253719  0.68567531  0.71243375  0.7267869
## Chest    0.5201765  0.68894452  0.63071026  0.6087781
## Abdomen  0.4768240  0.63527499  0.54701692  0.5632483
## Hip      0.6227833  0.70146658  0.61533798  0.5765821
## Thigh    0.6423109  0.72115411  0.62696437  0.5030937
## Knee     0.7168891  0.62851560  0.59904502  0.6348393
## Ankle    1.0000000  0.50771144  0.56059367  0.6240647
## Biceps   0.5077114  1.00000000  0.75772274  0.5795663
## Forearm  0.5605937  0.75772274  1.00000000  0.6220343
## Wrist    0.6240647  0.57956633  0.62203430  1.0000000
Таблица 3. Корреляционная матрица БЕЗ выбросов, метод Пирсона
BodyFat Density Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle Biceps Forearm Wrist
BodyFat 1.0000000 -0.9860788 0.2941018 0.5994612 0.0018122 0.4690471 0.6768149 0.8120546 0.6099907 0.5386286 0.5019636 0.2566507 0.4649605 0.3603815 0.2951154
Density -0.9860788 1.0000000 -0.2792522 -0.5773407 0.0156863 -0.4487045 -0.6540701 -0.7954967 -0.5914996 -0.5299448 -0.4849939 -0.2556997 -0.4578504 -0.3475271 -0.2710166
Age 0.2941018 -0.2792522 1.0000000 -0.0082697 -0.2324795 0.1370779 0.1926370 0.2631207 -0.0582741 -0.2159712 0.0237417 -0.1684226 -0.0393430 -0.0567491 0.2288750
Weight 0.5994612 -0.5773407 -0.0082697 1.0000000 0.5454934 0.7977472 0.8809407 0.8621005 0.9226905 0.8336708 0.8539634 0.6973731 0.7638160 0.7213222 0.6950066
Height 0.0018122 0.0156863 -0.2324795 0.5454934 1.0000000 0.3218904 0.2443142 0.2158302 0.4339568 0.3518529 0.5014315 0.4950927 0.3053643 0.3494594 0.4117866
Neck 0.4690471 -0.4487045 0.1370779 0.7977472 0.3218904 1.0000000 0.7510434 0.7145555 0.6809741 0.6383542 0.6463207 0.5253719 0.6856753 0.7124337 0.7267869
Chest 0.6768149 -0.6540701 0.1926370 0.8809407 0.2443142 0.7510434 1.0000000 0.8964279 0.7979439 0.6796831 0.7072654 0.5201765 0.6889445 0.6307103 0.6087781
Abdomen 0.8120546 -0.7954967 0.2631207 0.8621005 0.2158302 0.7145555 0.8964279 1.0000000 0.8396653 0.7139883 0.7283269 0.4768240 0.6352750 0.5470169 0.5632483
Hip 0.6099907 -0.5914996 -0.0582741 0.9226905 0.4339568 0.6809741 0.7979439 0.8396653 1.0000000 0.8732763 0.8316631 0.6227833 0.7014666 0.6153380 0.5765821
Thigh 0.5386286 -0.5299448 -0.2159712 0.8336708 0.3518529 0.6383542 0.6796831 0.7139883 0.8732763 1.0000000 0.7831510 0.6423109 0.7211541 0.6269644 0.5030937
Knee 0.5019636 -0.4849939 0.0237417 0.8539634 0.5014315 0.6463207 0.7072654 0.7283269 0.8316631 0.7831510 1.0000000 0.7168891 0.6285156 0.5990450 0.6348393
Ankle 0.2566507 -0.2556997 -0.1684226 0.6973731 0.4950927 0.5253719 0.5201765 0.4768240 0.6227833 0.6423109 0.7168891 1.0000000 0.5077114 0.5605937 0.6240647
Biceps 0.4649605 -0.4578504 -0.0393430 0.7638160 0.3053643 0.6856753 0.6889445 0.6352750 0.7014666 0.7211541 0.6285156 0.5077114 1.0000000 0.7577227 0.5795663
Forearm 0.3603815 -0.3475271 -0.0567491 0.7213222 0.3494594 0.7124337 0.6307103 0.5470169 0.6153380 0.6269644 0.5990450 0.5605937 0.7577227 1.0000000 0.6220343
Wrist 0.2951154 -0.2710166 0.2288750 0.6950066 0.4117866 0.7267869 0.6087781 0.5632483 0.5765821 0.5030937 0.6348393 0.6240647 0.5795663 0.6220343 1.0000000

Сопоставление коэффициентов корреляции до и после удаления выбросов:

Некоторые коэффициенты корреляции стали меньше или больше после удаления выбросов, что говорит о том, что выбросы все же искажали реальное значение парной корреляции между переменными (например корреляция между BodyFat и Weight снизилась примерно на 0,612414-0,5994612 = 0,0129528, подобные снижения можно назвать незначительными). Однако стоит заметить, что между некторыми переменными коэффициент корреляции принципиально изменился: между переменными Height и BodyFat коэффициент до удаления выбросов был отрицательным (-0,0894954), а после удаления выбросов стал положительным (0,0018122). Несмотря на то, что этот коэффициент корреляции крайне незначительный (очень близкий к 0) и скорее говорит нам об отсутсвии связи между переменными Height и BodyFat, важно то, что он изменил свой знак после удаления выбросов, то есть связь из отрицательной стала положительной. В целом по таблице, значения коэффициентов корреляции после удаления выбросов изменились незначительно.

Проверка значимости коэффициентов корреляции:

Выводы о взаимосвязи между признаками:

Таким образом, можно сказать, что с рассматриваемой переменной BodyFat большинство признаков имеют сильную прямую взаимосвязь: такие переменные как Weight, Chest, Abdomen и Hip (это значит, что размер груди, живота, бедра и веса имеют сильную прямую взаимосвязь с процентом жировой ткани в организме), признак Density же имеет сильную обратную(единственную обратную взаимосвязь после удаления выбросов) взаимосвязь с рассматриваемой переменной BodyFat, что говорит о том, что плотность тела имеет практически абсолютную обратную зависимость от процента жировой ткани в организме (что логично, так как жировая ткань имеет меньшую плотность, чем мышечная ткань в организме). Некоторые другие перменные также имеют прямую взаимосвязь с переменной BodyFat: Age (слабую), Neck (умеренную), Thigh (умеренную), Knee (умеренную), Ankle (слабую), Biceps (умеренную), Forearm (слабую), Wrist (слабую).

5.3. Построение доверительных интервалов для значимых коэффициентов корреляции

По графику, показывающему значимость парных коэффицентов корреляции, можем просто определить значимые коэффициенты в столбце BodyFat.

Доверительный интервал для переменных Density и BodyFat:

Pearson’s product-moment correlation: df$BodyFat and df$Density
Test statistic df P value Alternative hypothesis cor
-100.2 250 7.536e-204 * * * two.sided -0.9878
## 
##  Pearson's product-moment correlation
## 
## data:  df$BodyFat and df$Density
## t = -100.22, df = 250, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.9904570 -0.9843641
## sample estimates:
##        cor 
## -0.9877824

Доверительный интервал для переменных Weight и BodyFat:

Pearson’s product-moment correlation: df$BodyFat and df$Weight
Test statistic df P value Alternative hypothesis cor
12.25 250 2.473e-27 * * * two.sided 0.6124
## 
##  Pearson's product-moment correlation
## 
## data:  df$BodyFat and df$Weight
## t = 12.249, df = 250, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5288644 0.6842076
## sample estimates:
##      cor 
## 0.612414

Доверительный интервал для переменных Chest и BodyFat:

Pearson’s product-moment correlation: df$BodyFat and df$Chest
Test statistic df P value Alternative hypothesis cor
15.61 250 8.085e-39 * * * two.sided 0.7026
## 
##  Pearson's product-moment correlation
## 
## data:  df$BodyFat and df$Chest
## t = 15.613, df = 250, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6341034 0.7601899
## sample estimates:
##       cor 
## 0.7026203

Доверительный интервал для переменных Abdomen и BodyFat:

Pearson’s product-moment correlation: df$BodyFat and df$Abdomen
Test statistic df P value Alternative hypothesis cor
22.11 250 9.09e-61 * * * two.sided 0.8134
## 
##  Pearson's product-moment correlation
## 
## data:  df$BodyFat and df$Abdomen
## t = 22.112, df = 250, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7669520 0.8514218
## sample estimates:
##       cor 
## 0.8134323

Доверительный интервал для переменных Hip и BodyFat:

Pearson’s product-moment correlation: df$BodyFat and df$Hip
Test statistic df P value Alternative hypothesis cor
12.67 250 9.819e-29 * * * two.sided 0.6252
## 
##  Pearson's product-moment correlation
## 
## data:  df$BodyFat and df$Hip
## t = 12.666, df = 250, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5436276 0.6950738
## sample estimates:
##       cor 
## 0.6252009
  1. Построение и интерпретация матрицы частных коэффициентов корреляции, построение доверительных интервалов, проверка значимости коэффициентов корреляции

Частные коэффициенты корреляции ДО удаления выбросов:

##              BodyFat      Density         Age      Weight       Height
## BodyFat  1.000000000 -0.955384673  0.08463081  0.04087110 -0.018222726
## Density -0.955384673  1.000000000  0.05046880  0.07561044 -0.004564028
## Age      0.084630812  0.050468804  1.00000000 -0.19447379 -0.125683376
## Weight   0.040871101  0.075610442 -0.19447379  1.00000000  0.444742743
## Height  -0.018222726 -0.004564028 -0.12568338  0.44474274  1.000000000
## Neck    -0.026633141  0.012343039  0.10495551  0.27233241 -0.031128562
## Chest    0.059138334  0.066712150  0.03276487  0.39722877 -0.213968186
## Abdomen  0.037951787 -0.138504906  0.29556499  0.23321620 -0.061834866
## Hip      0.028656398  0.058330151 -0.07048095  0.51885438 -0.254728966
## Thigh   -0.025290681 -0.059007613 -0.36989376  0.07117307 -0.196988552
## Knee    -0.004207198 -0.005669174  0.24861980  0.25363452  0.086331946
## Ankle   -0.084330733 -0.103907619 -0.10349189  0.19384029 -0.059480699
## Biceps  -0.070118004 -0.094513961  0.06763044  0.18826556 -0.046170579
## Forearm  0.036922405 -0.006358218 -0.17770765  0.02667392 -0.014009830
## Wrist    0.002950963  0.062545363  0.34993119  0.11343952  0.088033788
##                Neck
## BodyFat -0.02663314
## Density  0.01234304
## Age      0.10495551
## Weight   0.27233241
## Height  -0.03112856
## Neck     1.00000000
## Chest    0.02886588
## Abdomen  0.09762970
## Hip     -0.18447252
## Thigh    0.11835960
## Knee    -0.14836610
## Ankle   -0.09463282
## Biceps   0.09049183
## Forearm  0.13101026
## Wrist    0.25540480
Таблица 3.1. Матрица частных коэффициентов корреляции ДО удаления выбросов
BodyFat Density Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle Biceps Forearm Wrist
BodyFat 1.0000000 -0.9553847 0.0846308 0.0408711 -0.0182227 -0.0266331 0.0591383 0.0379518 0.0286564 -0.0252907 -0.0042072 -0.0843307 -0.0701180 0.0369224 0.0029510
Density -0.9553847 1.0000000 0.0504688 0.0756104 -0.0045640 0.0123430 0.0667121 -0.1385049 0.0583302 -0.0590076 -0.0056692 -0.1039076 -0.0945140 -0.0063582 0.0625454
Age 0.0846308 0.0504688 1.0000000 -0.1944738 -0.1256834 0.1049555 0.0327649 0.2955650 -0.0704809 -0.3698938 0.2486198 -0.1034919 0.0676304 -0.1777077 0.3499312
Weight 0.0408711 0.0756104 -0.1944738 1.0000000 0.4447427 0.2723324 0.3972288 0.2332162 0.5188544 0.0711731 0.2536345 0.1938403 0.1882656 0.0266739 0.1134395
Height -0.0182227 -0.0045640 -0.1256834 0.4447427 1.0000000 -0.0311286 -0.2139682 -0.0618349 -0.2547290 -0.1969886 0.0863319 -0.0594807 -0.0461706 -0.0140098 0.0880338
Neck -0.0266331 0.0123430 0.1049555 0.2723324 -0.0311286 1.0000000 0.0288659 0.0976297 -0.1844725 0.1183596 -0.1483661 -0.0946328 0.0904918 0.1310103 0.2554048
Chest 0.0591383 0.0667121 0.0327649 0.3972288 -0.2139682 0.0288659 1.0000000 0.3949262 -0.1851990 -0.1502932 -0.0875710 -0.0166165 0.0868674 0.1193610 -0.0242006
Abdomen 0.0379518 -0.1385049 0.2955650 0.2332162 -0.0618349 0.0976297 0.3949262 1.0000000 0.2587058 0.0406042 -0.0584379 -0.1175706 -0.1472773 -0.1269966 0.0023352
Hip 0.0286564 0.0583302 -0.0704809 0.5188544 -0.2547290 -0.1844725 -0.1851990 0.2587058 1.0000000 0.3324457 0.0434119 -0.0415272 -0.0663638 -0.0794962 -0.0020907
Thigh -0.0252907 -0.0590076 -0.3698938 0.0711731 -0.1969886 0.1183596 -0.1502932 0.0406042 0.3324457 1.0000000 0.2748417 -0.0214266 0.2518993 -0.0062998 -0.0381018
Knee -0.0042072 -0.0056692 0.2486198 0.2536345 0.0863319 -0.1483661 -0.0875710 -0.0584379 0.0434119 0.2748417 1.0000000 0.1656183 -0.0766790 0.0881492 0.0745965
Ankle -0.0843307 -0.1039076 -0.1034919 0.1938403 -0.0594807 -0.0946328 -0.0166165 -0.1175706 -0.0415272 -0.0214266 0.1656183 1.0000000 -0.0490970 -0.0288402 0.2497490
Biceps -0.0701180 -0.0945140 0.0676304 0.1882656 -0.0461706 0.0904918 0.0868674 -0.1472773 -0.0663638 0.2518993 -0.0766790 -0.0490970 1.0000000 0.2797388 0.0568959
Forearm 0.0369224 -0.0063582 -0.1777077 0.0266739 -0.0140098 0.1310103 0.1193610 -0.1269966 -0.0794962 -0.0062998 0.0881492 -0.0288402 0.2797388 1.0000000 0.2000781
Wrist 0.0029510 0.0625454 0.3499312 0.1134395 0.0880338 0.2554048 -0.0242006 0.0023352 -0.0020907 -0.0381018 0.0745965 0.2497490 0.0568959 0.2000781 1.0000000

Частные коэффициенты корреляции ПОСЛЕ удаления выбросов:

##              BodyFat       Density         Age      Weight       Height
## BodyFat  1.000000000 -0.9539520087  0.08163700  0.06237201 -0.012378043
## Density -0.953952009  1.0000000000  0.04395339  0.06602306  0.009739297
## Age      0.081637002  0.0439533872  1.00000000 -0.17898763 -0.022842422
## Weight   0.062372009  0.0660230588 -0.17898763  1.00000000  0.702349949
## Height  -0.012378043  0.0097392972 -0.02284242  0.70234995  1.000000000
## Neck    -0.031308233  0.0003745821  0.05596263  0.28522501 -0.173809329
## Chest    0.035006763  0.0584689955  0.06357072  0.56063978 -0.459978587
## Abdomen  0.031750191 -0.1319302714  0.29617891  0.31891587 -0.239860604
## Hip      0.009166325  0.0357925861 -0.07705361  0.40769367 -0.133022903
## Thigh    0.019858564 -0.0153457002 -0.32261042  0.15124453 -0.281215778
## Knee     0.007851369  0.0135829786  0.24753765  0.12131255  0.099485708
## Ankle   -0.145475889 -0.1484039354 -0.16138038  0.21525114 -0.075203422
## Biceps  -0.085534125 -0.1061964617  0.03232157  0.17763764 -0.112973340
## Forearm  0.016984098  0.0012041507 -0.05952092  0.15210237 -0.091104271
## Wrist    0.031258584  0.0899147604  0.37068143  0.08134793  0.030546528
##                  Neck
## BodyFat -0.0313082326
## Density  0.0003745821
## Age      0.0559626275
## Weight   0.2852250112
## Height  -0.1738093293
## Neck     1.0000000000
## Chest   -0.0435111237
## Abdomen  0.0720921710
## Hip     -0.1938473938
## Thigh    0.0748856480
## Knee    -0.0655026612
## Ankle   -0.1468789099
## Biceps  -0.0036426486
## Forearm  0.2112385858
## Wrist    0.3085461210
Таблица 3.2. Матрица частных коэффициентов корреляции ПОСЛЕ удаления выбросов
BodyFat Density Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle Biceps Forearm Wrist
BodyFat 1.0000000 -0.9539520 0.0816370 0.0623720 -0.0123780 -0.0313082 0.0350068 0.0317502 0.0091663 0.0198586 0.0078514 -0.1454759 -0.0855341 0.0169841 0.0312586
Density -0.9539520 1.0000000 0.0439534 0.0660231 0.0097393 0.0003746 0.0584690 -0.1319303 0.0357926 -0.0153457 0.0135830 -0.1484039 -0.1061965 0.0012042 0.0899148
Age 0.0816370 0.0439534 1.0000000 -0.1789876 -0.0228424 0.0559626 0.0635707 0.2961789 -0.0770536 -0.3226104 0.2475377 -0.1613804 0.0323216 -0.0595209 0.3706814
Weight 0.0623720 0.0660231 -0.1789876 1.0000000 0.7023499 0.2852250 0.5606398 0.3189159 0.4076937 0.1512445 0.1213125 0.2152511 0.1776376 0.1521024 0.0813479
Height -0.0123780 0.0097393 -0.0228424 0.7023499 1.0000000 -0.1738093 -0.4599786 -0.2398606 -0.1330229 -0.2812158 0.0994857 -0.0752034 -0.1129733 -0.0911043 0.0305465
Neck -0.0313082 0.0003746 0.0559626 0.2852250 -0.1738093 1.0000000 -0.0435111 0.0720922 -0.1938474 0.0748856 -0.0655027 -0.1468789 -0.0036426 0.2112386 0.3085461
Chest 0.0350068 0.0584690 0.0635707 0.5606398 -0.4599786 -0.0435111 1.0000000 0.2398965 -0.1616581 -0.2203352 -0.0511808 -0.0360063 0.0417811 0.0098332 -0.0506610
Abdomen 0.0317502 -0.1319303 0.2961789 0.3189159 -0.2398606 0.0720922 0.2398965 1.0000000 0.2089488 -0.0093989 0.0067120 -0.1130766 -0.1379129 -0.1505056 -0.0054754
Hip 0.0091663 0.0357926 -0.0770536 0.4076937 -0.1330229 -0.1938474 -0.1616581 0.2089488 1.0000000 0.3443846 0.1490083 -0.1469621 -0.0313846 -0.0890242 0.0046497
Thigh 0.0198586 -0.0153457 -0.3226104 0.1512445 -0.2812158 0.0748856 -0.2203352 -0.0093989 0.3443846 1.0000000 0.2245054 0.1119538 0.2177754 -0.0094598 -0.0620188
Knee 0.0078514 0.0135830 0.2475377 0.1213125 0.0994857 -0.0655027 -0.0511808 0.0067120 0.1490083 0.2245054 1.0000000 0.2857873 -0.0576695 0.0047348 0.0294808
Ankle -0.1454759 -0.1484039 -0.1613804 0.2152511 -0.0752034 -0.1468789 -0.0360063 -0.1130766 -0.1469621 0.1119538 0.2857873 1.0000000 -0.1604733 0.0626855 0.3269939
Biceps -0.0855341 -0.1061965 0.0323216 0.1776376 -0.1129733 -0.0036426 0.0417811 -0.1379129 -0.0313846 0.2177754 -0.0576695 -0.1604733 1.0000000 0.3771265 0.0929545
Forearm 0.0169841 0.0012042 -0.0595209 0.1521024 -0.0911043 0.2112386 0.0098332 -0.1505056 -0.0890242 -0.0094598 0.0047348 0.0626855 0.3771265 1.0000000 0.0926178
Wrist 0.0312586 0.0899148 0.3706814 0.0813479 0.0305465 0.3085461 -0.0506610 -0.0054754 0.0046497 -0.0620188 0.0294808 0.3269939 0.0929545 0.0926178 1.0000000

Построение доверительных интервалов для частных коэффициентов корреляции ДО удаления выбросов:

## $p
##              BodyFat      Density       Age     Weight    Height      Neck
## BodyFat 0.000000e+00 8.738164e-09 0.7961721 0.93728789 0.9348662 0.9011514
## Density 8.738164e-09 0.000000e+00 0.9740555 0.80472978 0.9252883 0.8685836
## Age     7.961721e-01 9.740555e-01 0.0000000 0.07490990 0.4973968 0.8343439
## Weight  9.372879e-01 8.047298e-01 0.0749099 0.00000000 0.1053100 0.8530892
## Height  9.348662e-01 9.252883e-01 0.4973968 0.10531001 0.0000000 0.9939042
## Neck    9.011514e-01 8.685836e-01 0.8343439 0.85308920 0.9939042 0.0000000
## Chest   8.598312e-01 9.135564e-01 0.9010947 0.33064545 0.4543896 0.7696886
## Abdomen 5.313856e-01 6.395673e-01 0.2644236 0.51935020 0.4527474 0.8503646
## Hip     9.796916e-01 8.839640e-01 0.3755416 0.09496349 0.3764914 0.3434134
## Thigh   9.205735e-01 7.913316e-01 0.0378175 0.79756389 0.2762778 0.9938612
## Knee    9.987211e-01 9.803767e-01 0.6950674 0.92328532 0.6757745 0.1954410
## Ankle   8.550638e-01 8.450167e-01 0.5320211 0.67071935 0.9666642 0.4868407
## Biceps  9.186036e-01 8.402826e-01 0.5989019 0.92096524 0.7268370 0.5610360
## Forearm 9.305487e-01 9.238832e-01 0.2837062 0.58966333 0.9124718 0.5886064
## Wrist   8.682353e-01 7.454085e-01 0.1258438 0.39889495 0.8053242 0.2695342
##             Chest   Abdomen        Hip      Thigh      Knee     Ankle    Biceps
## BodyFat 0.8598312 0.5313856 0.97969162 0.92057351 0.9987211 0.8550638 0.9186036
## Density 0.9135564 0.6395673 0.88396405 0.79133158 0.9803767 0.8450167 0.8402826
## Age     0.9010947 0.2644236 0.37554156 0.03781750 0.6950674 0.5320211 0.5989019
## Weight  0.3306454 0.5193502 0.09496349 0.79756389 0.9232853 0.6707193 0.9209652
## Height  0.4543896 0.4527474 0.37649142 0.27627784 0.6757745 0.9666642 0.7268370
## Neck    0.7696886 0.8503646 0.34341339 0.99386116 0.1954410 0.4868407 0.5610360
## Chest   0.0000000 0.0519934 0.58335319 0.26191619 0.2829707 0.7385178 0.8582562
## Abdomen 0.0519934 0.0000000 0.26945472 0.69959219 0.4461718 0.3157458 0.2500105
## Hip     0.5833532 0.2694547 0.00000000 0.07413644 0.7307202 0.8837058 0.6183972
## Thigh   0.2619162 0.6995922 0.07413644 0.00000000 0.3896254 0.8949543 0.3284232
## Knee    0.2829707 0.4461718 0.73072017 0.38962543 0.0000000 0.3675336 0.5121278
## Ankle   0.7385178 0.3157458 0.88370580 0.89495426 0.3675336 0.0000000 0.6591345
## Biceps  0.8582562 0.2500105 0.61839723 0.32842324 0.5121278 0.6591345 0.0000000
## Forearm 0.7999904 0.1403702 0.31142617 0.98470562 0.7917229 0.8317711 0.1173238
## Wrist   0.4906902 0.4995433 0.38444204 0.26251412 0.9569482 0.2745698 0.8986515
##           Forearm     Wrist
## BodyFat 0.9305487 0.8682353
## Density 0.9238832 0.7454085
## Age     0.2837062 0.1258438
## Weight  0.5896633 0.3988949
## Height  0.9124718 0.8053242
## Neck    0.5886064 0.2695342
## Chest   0.7999904 0.4906902
## Abdomen 0.1403702 0.4995433
## Hip     0.3114262 0.3844420
## Thigh   0.9847056 0.2625141
## Knee    0.7917229 0.9569482
## Ankle   0.8317711 0.2745698
## Biceps  0.1173238 0.8986515
## Forearm 0.0000000 0.5830230
## Wrist   0.5830230 0.0000000
## 
## $lowCI
##              BodyFat      Density          Age       Weight       Height
## BodyFat  1.000000000 -0.964377066  0.054905045 -0.040325846 -0.041185401
## Density -0.964377066  1.000000000 -0.008906546  0.051779170  0.008412303
## Age      0.054905045 -0.008906546  1.000000000 -0.487005983 -0.207480693
## Weight  -0.040325846  0.051779170 -0.487005983  1.000000000  0.420000986
## Height  -0.041185401  0.008412303 -0.207480693  0.420000986  1.000000000
## Neck    -0.053172287  0.028678538  0.041020322  0.034251896 -0.015940482
## Chest    0.031824571  0.012591218  0.017037301  0.253026772 -0.226398969
## Abdomen  0.157975343 -0.149564644  0.291307646  0.163098872 -0.227138010
## Hip     -0.010904381  0.023163015 -0.263556543  0.432221461 -0.263085903
## Thigh   -0.046262060 -0.092674635 -0.552468058  0.054396103 -0.316994220
## Knee    -0.018552922 -0.011147184  0.092570201  0.009125339  0.099946309
## Ankle   -0.069644026 -0.073252490 -0.192793981  0.101890971 -0.006285710
## Biceps  -0.046962276 -0.074955314 -0.165543463 -0.046122831 -0.116418146
## Forearm  0.006540454 -0.045085902 -0.312646139 -0.169230799 -0.049142758
## Wrist   -0.064923895  0.073630123  0.398039653 -0.252163030  0.051562338
##                Neck       Chest     Abdomen         Hip       Thigh
## BodyFat -0.05317229  0.03182457  0.15797534 -0.01090438 -0.04626206
## Density  0.02867854  0.01259122 -0.14956464  0.02316301 -0.09267464
## Age      0.04102032  0.01703730  0.29130765 -0.26355654 -0.55246806
## Weight   0.03425190  0.25302677  0.16309887  0.43222146  0.05439610
## Height  -0.01594048 -0.22639897 -0.22713801 -0.26308590 -0.31699422
## Neck     1.00000000  0.06463255  0.03523385 -0.27987314 -0.01592522
## Chest    0.06463255  1.00000000  0.49670190 -0.17176249 -0.32560207
## Abdomen  0.03523385  0.49670190  1.00000000  0.28821005 -0.12662200
## Hip     -0.27987314 -0.17176249  0.28821005  1.00000000  0.46003277
## Thigh   -0.01592522 -0.32560207 -0.12662200  0.46003277  1.00000000
## Knee    -0.36976814 -0.31307362 -0.23011044  0.07911424  0.22252070
## Ankle   -0.21205026 -0.11207775 -0.29461679 -0.05939348 -0.05538052
## Biceps   0.14557127  0.03239130 -0.33295556 -0.15783393  0.25423409
## Forearm  0.13429059  0.05350933 -0.41438990 -0.29698386 -0.02351745
## Wrist    0.28816140 -0.21037861 -0.20655703 -0.25917113 -0.32523813
##                 Knee       Ankle      Biceps      Forearm       Wrist
## BodyFat -0.018552922 -0.06964403 -0.04696228  0.006540454 -0.06492389
## Density -0.011147184 -0.07325249 -0.07495531 -0.045085902  0.07363012
## Age      0.092570201 -0.19279398 -0.16554346 -0.312646139  0.39803965
## Weight   0.009125339  0.10189097 -0.04612283 -0.169230799 -0.25216303
## Height   0.099946309 -0.00628571 -0.11641815 -0.049142758  0.05156234
## Neck    -0.369768138 -0.21205026  0.14557127  0.134290588  0.28816140
## Chest   -0.313073621 -0.11207775  0.03239130  0.053509331 -0.21037861
## Abdomen -0.230110438 -0.29461679 -0.33295556 -0.414389903 -0.20655703
## Hip      0.079114242 -0.05939348 -0.15783393 -0.296983861 -0.25917113
## Thigh    0.222520695 -0.05538052  0.25423409 -0.023517452 -0.32523813
## Knee     1.000000000  0.23362406 -0.20117776 -0.092532066 -0.03335260
## Ankle    0.233624063  1.00000000 -0.14200865 -0.078021205  0.28509663
## Biceps  -0.201177758 -0.14200865  1.00000000  0.406825257 -0.05406287
## Forearm -0.092532066 -0.07802120  0.40682526  1.000000000  0.13655678
## Wrist   -0.033352603  0.28509663 -0.05406287  0.136556780  1.00000000
## 
## $uppCI
##              BodyFat      Density         Age       Weight       Height
## BodyFat  1.000000000 -0.961753175  0.09091238 -0.004143927 -0.005004894
## Density -0.961753175  1.000000000  0.02729022  0.087802613  0.044586695
## Age      0.090912377  0.027290216  1.00000000 -0.458905659 -0.172588575
## Weight  -0.004143927  0.087802613 -0.45890566  1.000000000  0.449359150
## Height  -0.005004894  0.044586695 -0.17258857  0.449359150  1.000000000
## Neck    -0.017017065  0.064799254  0.07709385  0.070352659  0.020259170
## Chest    0.067934299  0.048756968  0.05319247  0.286590565 -0.191782259
## Abdomen  0.193059625 -0.113993662  0.32407922  0.198117505 -0.192532597
## Hip      0.025293565  0.059301273 -0.22955800  0.461195764 -0.229078893
## Thigh   -0.010090987 -0.056676746 -0.52681249  0.090406106 -0.284064869
## Knee     0.017646892  0.025050887  0.12832828  0.045298346  0.135643671
## Ankle   -0.033540592 -0.037163038 -0.15770630  0.137571678  0.029909059
## Biceps  -0.010792651 -0.038872790 -0.13013510 -0.009951475 -0.080569615
## Forearm  0.042718309 -0.008912478 -0.27962182 -0.133862624 -0.012977872
## Wrist   -0.028803602  0.109526253  0.42806171 -0.217964044  0.087586872
##                Neck       Chest     Abdomen         Hip       Thigh
## BodyFat -0.01701707  0.06793430  0.19305962  0.02529357 -0.01009099
## Density  0.06479925  0.04875697 -0.11399366  0.05930127 -0.05667675
## Age      0.07709385  0.05319247  0.32407922 -0.22955800 -0.52681249
## Weight   0.07035266  0.28659056  0.19811751  0.46119576  0.09040611
## Height   0.02025917 -0.19178226 -0.19253260 -0.22907889 -0.28406487
## Neck     1.00000000  0.10058525  0.07133087 -0.24617848  0.02027443
## Chest    0.10058525  1.00000000  0.52348049 -0.13642249 -0.29286490
## Abdomen  0.07133087  0.52348049  1.00000000  0.32104955 -0.09085033
## Hip     -0.24617848 -0.13642249  0.32104955  1.00000000  0.48809510
## Thigh    0.02027443 -0.29286490 -0.09085033  0.48809510  1.00000000
## Knee    -0.33810440 -0.28005858 -0.19555087  0.11497304  0.25664203
## Ankle   -0.17722224 -0.07619884 -0.26121378 -0.02325549 -0.01923109
## Biceps   0.18080676  0.06849897 -0.30038695 -0.12234476  0.28777447
## Forearm  0.16965409  0.08952394 -0.38395977 -0.26362918  0.01268131
## Wrist    0.32100196 -0.17552696 -0.17165214 -0.22509430 -0.29249272
##                 Knee       Ankle       Biceps      Forearm        Wrist
## BodyFat  0.017646892 -0.03354059 -0.010792651  0.042718309 -0.028803602
## Density  0.025050887 -0.03716304 -0.038872790 -0.008912478  0.109526253
## Age      0.128328276 -0.15770630 -0.130135095 -0.279621822  0.428061713
## Weight   0.045298346  0.13757168 -0.009951475 -0.133862624 -0.217964044
## Height   0.135643671  0.02990906 -0.080569615 -0.012977872  0.087586872
## Neck    -0.338104400 -0.17722224  0.180806761  0.169654085  0.321001965
## Chest   -0.280058578 -0.07619884  0.068498970  0.089523943 -0.175526960
## Abdomen -0.195550869 -0.26121378 -0.300386949 -0.383959770 -0.171652139
## Hip      0.114973042 -0.02325549 -0.122344764 -0.263629182 -0.225094299
## Thigh    0.256642033 -0.01923109  0.287774472  0.012681306 -0.292492721
## Knee     1.000000000  0.26755006 -0.166199762 -0.056533405  0.002838789
## Ankle    0.267550059  1.00000000 -0.106367311 -0.041951687  0.318003727
## Biceps  -0.166199762 -0.10636731  1.000000000  0.436585730 -0.017909946
## Forearm -0.056533405 -0.04195169  0.436585730  1.000000000  0.171895288
## Wrist    0.002838789  0.31800373 -0.017909946  0.171895288  1.000000000

Практически все доверительные интервалы не включают в себя 0. Это доказывает значимость частных коэффициентов корреляции.

Построение доверительных интервалов для частных коэффициентов корреляции ПОСЛЕ удаления выбросов:

## $p
##              BodyFat      Density        Age     Weight     Height      Neck
## BodyFat 0.000000e+00 6.090999e-08 0.75951324 0.98695164 0.99631388 0.9823076
## Density 6.090999e-08 0.000000e+00 0.95628842 0.92159818 0.84383040 0.8500738
## Age     7.595132e-01 9.562884e-01 0.00000000 0.05093401 0.73641170 0.8733049
## Weight  9.869516e-01 9.215982e-01 0.05093401 0.00000000 0.03691775 0.9689535
## Height  9.963139e-01 8.438304e-01 0.73641170 0.03691775 0.00000000 0.6974953
## Neck    9.823076e-01 8.500738e-01 0.87330490 0.96895350 0.69749529 0.0000000
## Chest   9.069530e-01 8.696026e-01 0.84779949 0.21203924 0.28600961 0.8123070
## Abdomen 5.555106e-01 6.473709e-01 0.22669361 0.57765013 0.36764762 0.7792924
## Hip     9.362184e-01 8.738462e-01 0.35621819 0.37691593 0.99973898 0.3536229
## Thigh   9.880238e-01 8.393689e-01 0.02386076 0.88127947 0.33777083 0.9956209
## Knee    9.814691e-01 9.821188e-01 0.61650570 0.55467306 0.63747377 0.2840428
## Ankle   7.871537e-01 8.403847e-01 0.36247370 0.89010540 0.82831063 0.6262886
## Biceps  9.508706e-01 8.770310e-01 0.63180359 0.85565260 0.65913628 0.7655034
## Forearm 9.640278e-01 9.486316e-01 0.43485790 0.76054191 0.74639687 0.2552947
## Wrist   8.696731e-01 7.665466e-01 0.11005198 0.23350253 0.95953108 0.1751869
##             Chest   Abdomen        Hip      Thigh      Knee     Ankle
## BodyFat 0.9069530 0.5555106 0.93621843 0.98802383 0.9814691 0.7871537
## Density 0.8696026 0.6473709 0.87384620 0.83936890 0.9821188 0.8403847
## Age     0.8477995 0.2266936 0.35621819 0.02386076 0.6165057 0.3624737
## Weight  0.2120392 0.5776501 0.37691593 0.88127947 0.5546731 0.8901054
## Height  0.2860096 0.3676476 0.99973898 0.33777083 0.6374738 0.8283106
## Neck    0.8123070 0.7792924 0.35362286 0.99562085 0.2840428 0.6262886
## Chest   0.0000000 0.0918496 0.72715884 0.34616780 0.4267123 0.8919999
## Abdomen 0.0918496 0.0000000 0.26267478 0.74372478 0.7547116 0.4331349
## Hip     0.7271588 0.2626748 0.00000000 0.04010301 0.5428882 0.6476837
## Thigh   0.3461678 0.7437248 0.04010301 0.00000000 0.4073629 0.5802426
## Knee    0.4267123 0.7547116 0.54288824 0.40736293 0.0000000 0.1380090
## Ankle   0.8919999 0.4331349 0.64768372 0.58024263 0.1380090 0.0000000
## Biceps  0.8430692 0.3514199 0.84550840 0.37148051 0.3800300 0.5003876
## Forearm 0.9515274 0.1688194 0.32930587 0.98483746 0.4235544 0.8805559
## Wrist   0.5702873 0.6167283 0.32064059 0.31199426 0.7443296 0.2085545
##             Biceps    Forearm     Wrist
## BodyFat 0.95087056 0.96402782 0.8696731
## Density 0.87703101 0.94863163 0.7665466
## Age     0.63180359 0.43485790 0.1100520
## Weight  0.85565260 0.76054191 0.2335025
## Height  0.65913628 0.74639687 0.9595311
## Neck    0.76550343 0.25529467 0.1751869
## Chest   0.84306925 0.95152743 0.5702873
## Abdomen 0.35141988 0.16881942 0.6167283
## Hip     0.84550840 0.32930587 0.3206406
## Thigh   0.37148051 0.98483746 0.3119943
## Knee    0.38003004 0.42355442 0.7443296
## Ankle   0.50038757 0.88055595 0.2085545
## Biceps  0.00000000 0.02128833 0.9165745
## Forearm 0.02128833 0.00000000 0.8514109
## Wrist   0.91657451 0.85141094 0.0000000
## 
## $lowCI
##              BodyFat      Density          Age       Weight      Height
## BodyFat  1.000000000 -0.951729012  0.068393467 -0.013477178 -0.01679413
## Density -0.951729012  1.000000000 -0.002604644  0.009726074  0.03759129
## Age      0.068393467 -0.002604644  1.000000000 -0.525429781 -0.11285890
## Weight  -0.013477178  0.009726074 -0.525429781  1.000000000  0.52899254
## Height  -0.016794130  0.037591289 -0.112858905  0.528992539  1.00000000
## Neck    -0.024366887  0.035338699  0.026983742 -0.007097570 -0.12741229
## Chest    0.014946199  0.028312593  0.036158885  0.325990616 -0.31131155
## Abdomen  0.147860438 -0.146541608  0.315791075  0.138746070 -0.26749286
## Hip      0.004524125  0.026789531 -0.273274142  0.228864985 -0.01819237
## Thigh   -0.022342084 -0.075284150 -0.590441677 -0.060259950 -0.28282428
## Knee    -0.024663900 -0.011764604  0.123096286 -0.183412532  0.11481476
## Ankle   -0.094197638 -0.074918551 -0.270097662  0.020964957  0.04320534
## Biceps  -0.035507395 -0.061777910 -0.152585424 -0.069432793 -0.14200796
## Forearm -0.030843318 -0.036301376 -0.235275937 -0.103944765 -0.10916081
## Wrist   -0.064409315  0.065792416  0.414681042 -0.343513528 -0.00375533
##                Neck         Chest     Abdomen          Hip       Thigh
## BodyFat -0.02436689  0.0149461992  0.14786044  0.004524125 -0.02234208
## Density  0.03533870  0.0283125931 -0.14654161  0.026789531 -0.07528415
## Age      0.02698374  0.0361588848  0.31579107 -0.273274142 -0.59044168
## Weight  -0.00709757  0.3259906161  0.13874607  0.228864985 -0.06025995
## Height  -0.12741229 -0.3113115491 -0.26749286 -0.018192373 -0.28282428
## Neck     1.00000000  0.0490180105  0.06109518 -0.274600971 -0.01654862
## Chest    0.04901801  1.0000000000  0.43608270 -0.116298286 -0.27844233
## Abdomen  0.06109518  0.4360826975  1.00000000  0.292392809 -0.11014911
## Hip     -0.27460097 -0.1162982859  0.29239281  1.000000000  0.52144446
## Thigh   -0.01654862 -0.2784423318 -0.11014911  0.521444458  1.00000000
## Knee    -0.31245074 -0.2390366137 -0.10609158  0.153127622  0.21385079
## Ankle   -0.15473948 -0.0564338850 -0.23606845 -0.146420703  0.13768863
## Biceps   0.06617778  0.0378661317 -0.27573142 -0.073075712  0.23161396
## Forearm  0.29702174 -0.0009146609 -0.39013898 -0.287303702 -0.02347075
## Wrist    0.35382991 -0.1770400215 -0.15849027 -0.291956807 -0.29667149
##               Knee       Ankle      Biceps       Forearm       Wrist
## BodyFat -0.0246639 -0.09419764 -0.03550740 -0.0308433184 -0.06440931
## Density -0.0117646 -0.07491855 -0.06177791 -0.0363013759  0.06579242
## Age      0.1230963 -0.27009766 -0.15258542 -0.2352759373  0.41468104
## Weight  -0.1834125  0.02096496 -0.06943279 -0.1039447651 -0.34351353
## Height   0.1148148  0.04320534 -0.14200796 -0.1091608132 -0.00375533
## Neck    -0.3124507 -0.15473948  0.06617778  0.2970217356  0.35382991
## Chest   -0.2390366 -0.05643389  0.03786613 -0.0009146609 -0.17704002
## Abdomen -0.1060916 -0.23606845 -0.27573142 -0.3901389834 -0.15849027
## Hip      0.1531276 -0.14642070 -0.07307571 -0.2873037016 -0.29195681
## Thigh    0.2138508  0.13768863  0.23161396 -0.0234707507 -0.29667149
## Knee     1.0000000  0.38617828 -0.26133815 -0.2405042521 -0.10992532
## Ankle    0.3861783  1.00000000 -0.20619423  0.0243838271  0.32848180
## Biceps  -0.2613381 -0.20619423  1.00000000  0.5754931886 -0.04768368
## Forearm -0.2405043  0.02438383  0.57549319  1.0000000000  0.03485668
## Wrist   -0.1099253  0.32848180 -0.04768368  0.0348566790  1.00000000
## 
## $uppCI
##               BodyFat       Density         Age      Weight      Height
## BodyFat  1.0000000000 -0.9481980652  0.10432323  0.02272187  0.01940563
## Density -0.9481980652  1.0000000000  0.03358649  0.04589788  0.07367903
## Age      0.1043232304  0.0335864880  1.00000000 -0.49872468 -0.07698536
## Weight   0.0227218692  0.0458978849 -0.49872468  1.00000000  0.55456439
## Height   0.0194056292  0.0736790254 -0.07698536  0.55456439  1.00000000
## Neck     0.0118315119  0.0714353106  0.06311008  0.02909787 -0.09164689
## Chest    0.0511065229  0.0644345409  0.07225231  0.35795580 -0.27825837
## Abdomen  0.1830688449 -0.1109419722  0.34800213  0.17406009 -0.23356581
## Hip      0.0407054268  0.0629165020 -0.23945420  0.26287577  0.01800745
## Thigh    0.0138570852 -0.0392029883 -0.56635495 -0.02412459 -0.24918670
## Knee     0.0115343605  0.0244337647  0.15857785 -0.14820827  0.15037791
## Ankle   -0.0582080926 -0.0388358751 -0.23621856  0.05710959  0.07926937
## Biceps   0.0006814461 -0.0256472815 -0.11704374 -0.03332857 -0.10636661
## Forearm  0.0053506195 -0.0001135593 -0.20079759 -0.06801263 -0.07326226
## Wrist   -0.0282872822  0.1017381539  0.44420309 -0.31119403  0.03243704
##                Neck       Chest     Abdomen         Hip       Thigh        Knee
## BodyFat  0.01183151  0.05110652  0.18306884  0.04070543  0.01385709  0.01153436
## Density  0.07143531  0.06443454 -0.11094197  0.06291650 -0.03920299  0.02443376
## Age      0.06311008  0.07225231  0.34800213 -0.23945420 -0.56635495  0.15857785
## Weight   0.02909787  0.35795580  0.17406009  0.26287577 -0.02412459 -0.14820827
## Height  -0.09164689 -0.27825837 -0.23356581  0.01800745 -0.24918670  0.15037791
## Neck     1.00000000  0.08505510  0.09706854 -0.24080595  0.01965111 -0.27942219
## Chest    0.08505510  1.00000000  0.46493357 -0.08044890 -0.24472023 -0.20461865
## Abdomen  0.09706854  0.46493357  1.00000000  0.32514043 -0.07425714 -0.07017303
## Hip     -0.24080595 -0.08044890  0.32514043  1.00000000  0.54730477  0.18827230
## Thigh    0.01965111 -0.24472023 -0.07425714  0.54730477  1.00000000  0.24811861
## Knee    -0.27942219 -0.20461865 -0.07017303  0.18827230  0.24811861  1.00000000
## Ankle   -0.11921911 -0.02028735 -0.20160275 -0.11081994  0.17301452  0.41654503
## Biceps   0.10212118  0.07395276 -0.24195775 -0.03698555  0.26557596 -0.22729982
## Forearm  0.32966625  0.03527447 -0.35901978 -0.25375400  0.01272803 -0.20611014
## Wrist    0.38508708 -0.14176027 -0.12300781 -0.25849998 -0.26331041 -0.07403186
##               Ankle        Biceps       Forearm       Wrist
## BodyFat -0.05820809  0.0006814461  0.0053506195 -0.02828728
## Density -0.03883588 -0.0256472815 -0.0001135593  0.10173815
## Age     -0.23621856 -0.1170437447 -0.2007975938  0.44420309
## Weight   0.05710959 -0.0333285697 -0.0680126321 -0.31119403
## Height   0.07926937 -0.1063666125 -0.0732622558  0.03243704
## Neck    -0.11921911  0.1021211804  0.3296662467  0.38508708
## Chest   -0.02028735  0.0739527602  0.0352744725 -0.14176027
## Abdomen -0.20160275 -0.2419577451 -0.3590197796 -0.12300781
## Hip     -0.11081994 -0.0369855529 -0.2537540000 -0.25849998
## Thigh    0.17301452  0.2655759621  0.0127280258 -0.26331041
## Knee     0.41654503 -0.2272998247 -0.2061101369 -0.07403186
## Ankle    1.00000000 -0.1712843487  0.0605183914  0.36038583
## Biceps  -0.17128435  1.0000000000  0.5992022124 -0.01151558
## Forearm  0.06051839  0.5992022124  1.0000000000  0.07095514
## Wrist    0.36038583 -0.0115155832  0.0709551425  1.00000000

Большая часть доверительных интервалов не включает в себя 0. Это доказывает значимость частных коэффициентов корреляции ДО и ПОСЛЕ удаления выбросов.

Оценка значимости частных коэффициентов корреляции ДО удаления выбросов:

Оценка значимости частных коэффициентов корреляции ПОСЛЕ удаления выбросов:

Заметим, что графики практически не изменились. Это значит, что выбросы не сильно повлияли на значимость коэффицентов.

5.5. Сравнение парных и частных коэффициентов корреляции, выводы о характере взаимосвязей

Нетрудно заметить существенные отличия в количестве значимых коэффицентов корреляции в случае частных и парных коэффицетов. Коэффициенты парной корреляции по модулю значительно больше частных коэффициентов корреляции, что говорит нам о том, что остальные переменные значительно усиливают связь между переменной BodyFat и каждой ее парой (например, остальные переменные(показатели размера живота, груди и т.д.) значительно усиливают связь между процентом жира в теле (BodyFat) и размером бедра (Hip).

5.6. Расчёт множественного коэффициента корреляции. Проверка его значимости. Выводы

Расчёт множественного коэффициента корреляции проводим по тем переменным, которые имеют значимый коэффициент парной корреляции с переменной BodyFat.

## 
## Call:
## lm(formula = BodyFat ~ ., data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.4357 -0.3724 -0.1275  0.2156 15.1474 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.500e+02  1.071e+01  42.005   <2e-16 ***
## Density     -4.112e+02  8.258e+00 -49.796   <2e-16 ***
## Age          1.259e-02  9.626e-03   1.308    0.192    
## Weight       1.005e-02  1.597e-02   0.630    0.529    
## Height      -7.981e-03  2.844e-02  -0.281    0.779    
## Neck        -2.846e-02  6.938e-02  -0.410    0.682    
## Chest        2.678e-02  2.936e-02   0.912    0.363    
## Abdomen      1.857e-02  3.175e-02   0.585    0.559    
## Hip          1.917e-02  4.343e-02   0.441    0.659    
## Thigh       -1.676e-02  4.303e-02  -0.389    0.697    
## Knee        -4.639e-03  7.162e-02  -0.065    0.948    
## Ankle       -8.568e-02  6.576e-02  -1.303    0.194    
## Biceps      -5.505e-02  5.087e-02  -1.082    0.280    
## Forearm      3.386e-02  5.953e-02   0.569    0.570    
## Wrist        7.345e-03  1.617e-01   0.045    0.964    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.274 on 237 degrees of freedom
## Multiple R-squared:  0.9781, Adjusted R-squared:  0.9768 
## F-statistic: 756.3 on 14 and 237 DF,  p-value: < 2.2e-16
## 
##  Pearson's product-moment correlation
## 
## data:  Bf.model$model$BodyFat and Bf.model$fitted.values
## t = 105.68, df = 250, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9859109 0.9914037
## sample estimates:
##      cor 
## 0.988993

Получим множественный коэффициент корреляции, равный cor = 0.988993, что говорит нам о том, что процент жира в теле(BodyFat) имеет очень тесную линейную корреляционную связь с другими переменными.

Проверка значимости множественного коэффициента корреляции:

Поскольку p-value < 2.2e-16 имеет достаточно низкое значение, ниже любого разумного уровня значимости (p − value < α), можно сказать, что гипотеза H0 отвергается и множественный коэффициент корреляции является ЗНАЧИМЫМ.

  1. Регрессионный анализ. Линейная регрессионная модель

Перед тем как строить модели стоит проверить данные на мультиколлинеарность.

По графику, мы можем заметить, что многие объясняющие переменные сильно между собой коррелируют. Это может ухудшить наши модели. Также целевая переменная имеет линейную связь во всеми признаками, кроме роста(height).

Также нам нужно удалить все выбросы из колонки BodyFat, чтобы модель была более правдоподобной.

6.2. Построим несколько линейных регрессий и выберим лучший результат из полученных

Для начало построим линейную регрессию со всеми признаками.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 448.7 10.71 41.88 2.972e-111
Density -410.2 8.255 -49.7 5.288e-127
Age 0.01399 0.009635 1.453 0.1477
Weight 0.01041 0.01591 0.6543 0.5136
Height -0.005715 0.02838 -0.2014 0.8406
Neck -0.0328 0.0692 -0.4739 0.636
Chest 0.02681 0.02927 0.9161 0.3605
Abdomen 0.01485 0.03173 0.468 0.6402
Hip 0.01267 0.04347 0.2914 0.771
Thigh -0.00842 0.0432 -0.1949 0.8456
Knee 0.01554 0.07249 0.2144 0.8304
Ankle -0.09101 0.06563 -1.387 0.1668
Biceps -0.05562 0.05071 -1.097 0.2738
Forearm 0.03522 0.05934 0.5935 0.5534
Wrist 0.007398 0.1611 0.04591 0.9634
Fitting linear model: BodyFat ~ .
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
251 1.27 0.9773 0.976

Согласно результатам, все почти переменные незначимы для регрессии, но это противоречит логике, поэтому мы будем пренебрегать этим. А значение скорректированного коэффициента детерминации равно 0.976, что является очень хорошим результатом.

Также можем использовать метод включения для того, чтобы понять каким будет модель, если к каждом регрессору добавить еще один пока значимые не закончутся.

## Subset selection object
## Call: regsubsets.formula(BodyFat ~ ., df5, intercept = TRUE, method = "forward")
## 14 Variables  (and intercept)
##         Forced in Forced out
## Density     FALSE      FALSE
## Age         FALSE      FALSE
## Weight      FALSE      FALSE
## Height      FALSE      FALSE
## Neck        FALSE      FALSE
## Chest       FALSE      FALSE
## Abdomen     FALSE      FALSE
## Hip         FALSE      FALSE
## Thigh       FALSE      FALSE
## Knee        FALSE      FALSE
## Ankle       FALSE      FALSE
## Biceps      FALSE      FALSE
## Forearm     FALSE      FALSE
## Wrist       FALSE      FALSE
## 1 subsets of each size up to 8
## Selection Algorithm: forward
##          Density Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle
## 1  ( 1 ) "*"     " " " "    " "    " "  " "   " "     " " " "   " "  " "  
## 2  ( 1 ) "*"     " " " "    " "    " "  " "   "*"     " " " "   " "  " "  
## 3  ( 1 ) "*"     "*" " "    " "    " "  " "   "*"     " " " "   " "  " "  
## 4  ( 1 ) "*"     "*" " "    " "    " "  "*"   "*"     " " " "   " "  " "  
## 5  ( 1 ) "*"     "*" " "    " "    " "  "*"   "*"     " " " "   " "  "*"  
## 6  ( 1 ) "*"     "*" " "    " "    " "  "*"   "*"     "*" " "   " "  "*"  
## 7  ( 1 ) "*"     "*" " "    " "    " "  "*"   "*"     "*" " "   " "  "*"  
## 8  ( 1 ) "*"     "*" "*"    " "    " "  "*"   "*"     "*" " "   " "  "*"  
##          Biceps Forearm Wrist
## 1  ( 1 ) " "    " "     " "  
## 2  ( 1 ) " "    " "     " "  
## 3  ( 1 ) " "    " "     " "  
## 4  ( 1 ) " "    " "     " "  
## 5  ( 1 ) " "    " "     " "  
## 6  ( 1 ) " "    " "     " "  
## 7  ( 1 ) "*"    " "     " "  
## 8  ( 1 ) "*"    " "     " "
## [1] 0.9747038 0.9762907 0.9765282 0.9765467 0.9765755 0.9765358 0.9765295
## [8] 0.9764840

В нашу регрессию буду входить плотность тела, возраст, вес, размер грудой клетки,живота, бедер, колен и бицепсов.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 449.2 9.861 45.56 1.013e-120
Density -411.2 7.729 -53.2 1.528e-135
Age 0.01416 0.007809 1.813 0.07104
Weight 0.008841 0.01214 0.7282 0.4672
Chest 0.02934 0.02758 1.064 0.2884
Abdomen 0.0109 0.03085 0.3535 0.7241
Hip 0.01417 0.03654 0.3879 0.6985
Ankle -0.08463 0.06143 -1.378 0.1696
Biceps -0.05213 0.04483 -1.163 0.246
Fitting linear model: BodyFat ~ Density + Age + Weight + Chest + Abdomen + Hip + Ankle + Biceps
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
251 1.256 0.9772 0.9765

Скорректированный коэффицент детерминации чуть-чуть, но увеличился, при этом количество параметров уменьшилось.

Также можем построить регрессию только с плотность тела, так как это единственный параметр, который входе теста оказался значимым.

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 476.1 4.658 102.2 2.415e-205
Density -432.9 4.411 -98.15 4.706e-201
Fitting linear model: BodyFat ~ Density
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
251 1.303 0.9748 0.9747

В этом случае тоже скорректированный коэффицент детерминации достаточно высок, но меньше остальных, также тут всего лишь один параметор, что очень мало.

Чтобы окончательно решить какой модель лучше, нам нужно использовать критерии Акаике и Шварца.

Таблица 4. Информационные критерии Акаике и Шварца (Баесовский инф. критерий)
Модель Значение AIC Значение BIC
lm1 848.8696 905.2769
lm2 837.5818 872.8363
lm3 849.0562 859.6326

Наименьшее AIC и BIC имеет модель lm2, где признаки были отобраны по методу включения. Также там наибольший скорретированный коэффициент детерминации 0.9765 и относительно баланс количества параметров. Еще с помощью данного метода мы уменьшаем влияние мультиколинеарности (можно сказать в этой модели она отсутствует).

Теперь нужно доказать, что случайные ошибки подчиняются нормальному закону распределения. Для этого нужно использовать тест Jarque Bera, но перед этим убрав все выбросы.

Jarque Bera Test: resi_new
Test statistic df P value
6.031 2 0.04903 *

P_value больше 0.01, следовательно гипотеза о подчинении остатков к нормальному закону распределения не отвергается.

6.3. Построение графика наблюдаемых и модельных значений зависимой переменной

Точки на диаграмме имеют большой разброс значений и расположены в хаотичном порядке, то есть не имеют закономерности, значит, присутствует гетероскедастичность.

6.4. Корректная запись уравнения регрессии и интерпретация всех коэффициентов и характеристик, включая коэффициенты эластичности. Выводы

Table continues below
(Intercept) Density Age Weight Chest Abdomen Hip
449.2 -411.2 0.01416 0.008841 0.02934 0.0109 0.01417
Ankle Biceps
-0.08463 -0.05213

\[ y_{BodyFat} = 449.2 - 411.2 \cdot x_{Density} + 0.01416 \cdot x_{Age} + 0.008841 \cdot x_{Weight} + 0.02934 \cdot x_{Chest} + 0.0109 \cdot x_{Abdomen} - 0.01417 \cdot x_{Hip} + -0.08463 \cdot x_{Ankle} - 0.0109 \cdot x_{Biceps}\]

Уравнение регрессии имеет очень большое значение \(\beta_{0}\) равной 449.2 и \(\beta_{1}\) равной -411.2 (для плотности тело), при единичном изменеии плотности тело, жир уменьшается на -444.2 единицы. Остальные коэффициенты сильно меньше, так как их значимость отвергалась, но мы решили их оставить, чтобы соблюдать хоть какой-то баланс признаков.

Посчитаем коэфициенты эластичности

## [1] "Эластичность Density: -24.468 %"
## [1] "Эластичность Age: 0.033 %"
## [1] "Эластичность Weight: 0.083 %"
## [1] "Эластичность Abdomen: 0.053 %"
## [1] "Эластичность Chest: -0.155 %"
## [1] "Эластичность Hip: 0.074 %"
## [1] "Эластичность Biceps: -0.088 %"
## [1] "Эластичность Ankle: -0.103 %"

Наибольший по модулю коэффициент эластичности имеет показатель \(Density\), а значит, что при фиксированных значениях остальных переменных, уровень жира в теле уменьшится на 24,468%, если плотность тела увеличится на 1%.

Наименьший по модулю коэффициент эластичности имеет показатель \(Age\), а это значит, что при фиксированных значениях остальных переменных,уровень жира в теле увеличится всего на 0,033%, если возраст увеличится на 1%.

Регрессионный анализ. Нелинейная (степенная) регрессионная модель

Для проведения степенного анализа необходимо прологарифмировать данные, однако для избежания ошибок, нужно исключить пустые значения и нули:

Проверим прологарифмированные данные на мультиколлинеарность, исключив перед этим выбросы.

Выводы относительно коллинеарности не сильно поменялись по сравнению в с предыдущим пунктом.

Рассмотрим степенную модель множественной регрессии со всеми имеющимися объясняющими переменными: \(y = \beta_{0}\prod_{j=1}^{m}x_{j}^{\beta_{j}} \varepsilon\)

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.132 1.971 2.604 0.009823
Density -24.81 1.007 -24.65 2.375e-66
Age 0.04342 0.04563 0.9516 0.3423
Weight 0.2836 0.3186 0.8902 0.3743
Height 0.1346 0.1634 0.824 0.4108
Neck -0.3235 0.2895 -1.117 0.265
Chest -0.08432 0.3424 -0.2463 0.8057
Abdomen 0.1967 0.3273 0.6009 0.5485
Hip -1.203 0.475 -2.533 0.01199
Thigh 0.5987 0.2896 2.067 0.03985
Knee 0.1449 0.319 0.4541 0.6502
Ankle -0.2596 0.189 -1.373 0.171
Biceps -0.0217 0.1838 -0.118 0.9061
Forearm 0.07569 0.1868 0.4052 0.6857
Wrist 0.2527 0.3318 0.7616 0.4471
Fitting linear model: BodyFat ~ .
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
244 0.1419 0.9097 0.9042

Рассмотрим модель только со значимыми коэффициентами, то есть с теми, которые имеют p-value < 0.05:

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.651 0.8279 5.617 5.351e-08
Density -25.52 0.6624 -38.52 9.833e-105
Hip -0.5173 0.3111 -1.663 0.09765
Thigh 0.4804 0.2368 2.029 0.04356
Fitting linear model: BodyFat ~ Density + Hip + Thigh
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
244 0.1418 0.9054 0.9043

Вывод: скорректированный коэффициент детерминации (Adjusted R2) уменьшилась, значит, регрессионная модель ухудшилась.

Используем метод включения для отбора регрессоров:

## Subset selection object
## Call: regsubsets.formula(df6_2$BodyFat ~ ., df6_2, intercept = TRUE, 
##     method = "forward")
## 14 Variables  (and intercept)
##         Forced in Forced out
## Density     FALSE      FALSE
## Age         FALSE      FALSE
## Weight      FALSE      FALSE
## Height      FALSE      FALSE
## Neck        FALSE      FALSE
## Chest       FALSE      FALSE
## Abdomen     FALSE      FALSE
## Hip         FALSE      FALSE
## Thigh       FALSE      FALSE
## Knee        FALSE      FALSE
## Ankle       FALSE      FALSE
## Biceps      FALSE      FALSE
## Forearm     FALSE      FALSE
## Wrist       FALSE      FALSE
## 1 subsets of each size up to 8
## Selection Algorithm: forward
##          Density Age Weight Height Neck Chest Abdomen Hip Thigh Knee Ankle
## 1  ( 1 ) "*"     " " " "    " "    " "  " "   " "     " " " "   " "  " "  
## 2  ( 1 ) "*"     " " " "    " "    " "  " "   " "     " " " "   " "  " "  
## 3  ( 1 ) "*"     " " " "    " "    " "  " "   " "     " " " "   " "  "*"  
## 4  ( 1 ) "*"     " " " "    "*"    " "  " "   " "     " " " "   " "  "*"  
## 5  ( 1 ) "*"     " " " "    "*"    " "  " "   " "     " " "*"   " "  "*"  
## 6  ( 1 ) "*"     " " " "    "*"    " "  " "   " "     "*" "*"   " "  "*"  
## 7  ( 1 ) "*"     "*" " "    "*"    " "  " "   " "     "*" "*"   " "  "*"  
## 8  ( 1 ) "*"     "*" "*"    "*"    " "  " "   " "     "*" "*"   " "  "*"  
##          Biceps Forearm Wrist
## 1  ( 1 ) " "    " "     " "  
## 2  ( 1 ) " "    " "     "*"  
## 3  ( 1 ) " "    " "     "*"  
## 4  ( 1 ) " "    " "     "*"  
## 5  ( 1 ) " "    " "     "*"  
## 6  ( 1 ) " "    " "     "*"  
## 7  ( 1 ) " "    " "     "*"  
## 8  ( 1 ) " "    " "     "*"
## [1] "which"  "rsq"    "rss"    "adjr2"  "cp"     "bic"    "outmat" "obj"
## [1] 0.9034183 0.9039048 0.9040338 0.9041073 0.9040945 0.9055267 0.9056995
## [8] 0.9057942

Вывод: наибольший коэффициент детерминации у модели с 8 регрессорами => выбираем данные переменные в качестве значимых объясняющих для построения регрессионной модели.

Построение модели с отобранными регрессорами:

  Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.757 1.481 3.213 0.001497
Density -25.15 0.7778 -32.33 1.742e-88
Age 0.04777 0.04019 1.189 0.2357
Weight 0.2425 0.218 1.112 0.2671
Height 0.1399 0.158 0.8856 0.3767
Hip -1.045 0.4374 -2.389 0.01768
Thigh 0.5946 0.2623 2.267 0.02431
Ankle -0.2195 0.1791 -1.226 0.2216
Wrist 0.1711 0.3086 0.5545 0.5798
Fitting linear model: BodyFat ~ Density + Age + Weight + Height + Hip + Thigh + Ankle + Wrist
Observations Residual Std. Error \(R^2\) Adjusted \(R^2\)
244 0.1407 0.9089 0.9058

Скорректированный коэффициент детерминации увеличилась по сравнению. смоделью 4_2, значит, регрессионная модель улучшилась, но немного уменьшилась в сравнении с моделью 4_1.

Сравнение построенных моделей для выбора оптимальной:

Таблица 5. Информационные критерии Акаике и Шварца (Баесовский инф. критерий)
Модель Значение AIC Значение BIC
lm1_1 -243.9604 -188.0057
lm2_1 -254.6833 -237.1975
lm3_1 -253.7651 -218.7934

Вывод: по критерию Акаике мы должны выбрать модель lm2_1, и по критерию Шварца lm2_1, если же выбирать по скорректированному коэффициенту детерминации, то следует выбрать модель lm1_1. Кроме того, в модели lm_4_3 нет мультиколлениарности и значения всех критериев очень близки к второй модели, поэтому лучше в качсетве оптимальной взять модель “lm3_1”

Теперь нужно доказать, что случайные ошибки подчиняются нормальному закону распределения. Для этого нужно использовать тест Jarque Bera, но перед этим убрав все выбросы.

Jarque Bera Test: resi_new
Test statistic df P value
28.57 2 6.256e-07 * * *

P_value меньше 0.01, следовательно гипотеза о подчинении остатков нормальному закону распределения отвергается.

Интерпретация коэффициентов регрессии:

\[ y_{BodyFat} = 4.757 \cdot x_{Density}^{25.15} \cdot x_{age}^{0.04777} \cdot x_{Weight}^{0.2425} \cdot x_{ Height}^{ 0.1399} \cdot x_{Hip}^{1.045} \cdot x_{Thigh}^{0.5946} \cdot x_{ Ankle }^{0.2195}\]

Коэффициент регрессии \(b_(density)\) показывает, что уровень жира в среднем уменьшится примерно на 25, если переменная плотность увеличится на единицу своего измерения при фиксированных значениях остальных пременных.

Коэффициент регрессии \(b(thigh)\) показывает, что уровень жира в среднем увеличится на 0,6, если переменная, бедро увеличится на единицу своего измерения при фиксированных значениях остальных пременных.

Table continues below
(Intercept) Density Age Weight Height Hip Thigh Ankle
4.757 -25.15 0.04777 0.2425 0.1399 -1.045 0.5946 -0.2195
Wrist
0.1711

Теперь посчитаем коэффициент эластичности для модели ‘lm3_1’:

## [1] "Эластичность Density: -0.46 %"
## [1] "Эластичность Age: 0.062 %"
## [1] "Эластичность Weight: 0.435 %"
## [1] "Эластичность Height: 0.206 %"
## [1] "Эластичность Hip: -1.668 %"
## [1] "Эластичность Thigh: 0.842 %"
## [1] "Эластичность Ankle: -0.239 %"
## [1] "Эластичность Wrist: 0.172 %"

Наибольший по модулю коэффициент эластичности имеет показатель \(Hip\), а значит, что при фиксированных значениях остальных переменных, уровень жира в теле уменьшится на 1,7%, если размер бедра увеличится на 1%.

Наименьший по модулю коэффициент эластичности имеет показатель \(Age\), а это значит, что при фиксированных значениях остальных переменных,уровень жира в теле уменьшится всего на 0,062%, если возраст увеличится на 1%.

Построение графика предсказанных и фактических значений зависимой переменной для модели ‘lm3_1’:

Мы видим, что разброс значений не такой большой, как в прошлом пункте, так как данные прологарифмированы и графики наблюдаемых и модельных значений зависимой перемнной расходятся в некоторых местах. Но расхождение не велико, значит, модель можно считать качественной.

Регрессионный анализ. Итог

Таблица 6. Информационные критерии Акаике и Шварца (Баесовский инф. критерий)
Модель Значение AIC Значение BIC
lm2 837.5818 872.8363
lm3_1 -253.7651 -218.7934

Вывод: значения AIC, BIC у нелинейной модели значительно ниже значений линейной модели => использование нелинейной модели lm3_1 целесообразно, так как она будет лучше по всем факторам, чем линейная, что будет приводить к более надежным результатам.

Итоговая оптимальная регрессионная модель: \[ y_{BodyFat} = 4.757 \cdot x_{Density}^{25.15} \cdot x_{age}^{0.04777} \cdot x_{Weight}^{0.2425} \cdot x_{ Height}^{ 0.1399} \cdot x_{Hip}^{1.045} \cdot x_{Thigh}^{0.5946} \cdot x_{ Ankle }^{0.2195}\]